Eh E ^* ji Acta Entomologica Sinica, April 2013, 56(4) : 398 -407 ISSN 0454-6296 


338 El FÉ HR 2& 34 tK 25 D] ZB 2 FJ sa, É RC UI Pr 
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摘要 : 研究 双 怒 目 昆虫 线 粒 体 基因 组 的 结构 特点 , 并 设计 其 测序 的 通用 引物 ,为 今后 双 翅 目 昆 虫 线粒体 基因 组 的 
研究 提供 参考 和 依据 。 利 用 比较 基因 组 学 和 生物 信息 学 方法 , 分 析 了 已 经 完全 测序 的 26 个 双 怒 目 昆 虫 线粒体 基 
因 组 的 结构 特点 、 碱 基 组 成 和 保守 区 , 并 据 此 设计 了 双 怒 上 日 昆虫 基因 组 测序 的 通用 引物 。 结 果 表 明 : 00088 HL E HR 
线粒体 基因 组 长 14 503 ~ 19 517 bp, 其 结构 保守 , 含有 37 个 编码 基因 , 包括 13 个 和 蛋白质 编码 基因 , 22 个 tRNA Zi 
码 基因 和 2 个 rRNA 编码 基因 ,此 外 还 包含 一 段 长 度 差异 很 大 的 非 编 码 区 ( AT 富 含 区 ) 。 基 因 组 内 基因 排列 次 序 
稳定 ， 除 个 别 基 因 外 , 其 余 都 与 畦 腹 果 蝇 Drosophila, melanogaster 基因 排列 次 序 一 致 。 基 因 组 的 碱 基 组 成 不 均衡 ， 
AT 含量 在 72.59% ~85.15% 之 间 , 碱 基 使 用 存在 偏向 性 , 偏好 使 用 AC 碱 基 。 全 基因 组 的 核 苷 酸 和 氮 基 酸 序 列 保 
FT, 共 鉴 定 了 11 个 保守 区 。 在 保守 区 内 共 设 计 了 26 对 双 翅 目 线粒体 基因 组 测序 通用 引物 , 扩 增 的 目标 片段 都 在 
1 200 bp 以 内 。 将 该 套 通 用 引物 用 于 新 蝇 Delia antiqua 线粒体 全 基因 组 测序 , 结果 证 明 其 高 效 、 合 用 。 
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Structure characteristics of the mitochondrial genomes of Diptera and 


design and application of universal primers for their sequencing 

ZHANG Nai-Xin, ZHANG Yu-Juan, YU Guo, CHEN Bin ` ( Institute of Entomology and Molecular 
Biology, Chongqing Key Laboratory of Animal Biology, Chongqing Normal University, Chongqing 
401331, China) 

Abstract: The study aims to investigate the structural characteristics of Diptera mitochondrial genomes 
and design universal primers for sequencing of Diptera mitochondrial genomes so as to establish an overall 
framework of information for further study of Diptera mitochondrial genomes. We analyzed the structural 
characteristics, base composition and conserved regions of dipteran mitochondrial genome based on the 
known 26 full-length mitochondrial genome sequences of Diptera using comparative genomics and 
bioinformatics methods, and designed a set of universal primers for mitochondrial genome sequencing of 
Diptera. The results show that the mitochondrial genomes of Diptera are 14 503 - 19 517 bp in length, 
and their structure are quite conservative with 37 coding genes, including 13 protein-coding genes, 22 
tRNA genes and two rRNA coding genes. In addition, there is a non-coding region ( AT-rich region) with 
various lengths. The individual gene location order on these genomes is quite stable, consistent with that 
on the mitochondrial genome of Drosophila melanogaster with only a few exceptions. The base composition 
on these genomes is not balanced with the AT content (72. 59% -85.15% ) significantly higher than the 
GC content, and base usage bias exists with A (50. 9196 of AT content) and C (57. 7996 of GC 
content) base usage significantly higher than T and G. We identified 11 conservative regions based on the 
nucleotide and amino acid sequence conservation analysis of whole genome, and designed 26 pairs of 
universal primers for mitochondrial genome sequencing of Diptera with each pair of primers anchored to 
identify conservative regions. The target fragment amplified with each pair of primers is less than 1 200 


bp in length. This set of primers was applied for sequencing Delia antiqua mitochondrial genome, and the 
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results prove that the set of primers is efficient and operable. 


Key words: Diptera; Delia antiqua; mitochondrial genome; gene structure; conservative regions; 
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昆虫 是 地 球 上 种 类 最 多 的 生物 类 群 ,也 是 线 粒 
体 基 因 组 研究 较 多 的 类 群 。 目 前 已 有 255 个 昆虫 线 
粒 体 基因 组 基因 序列 公布 在 IMGD (昆虫 线粒体 基 
因 组 数据 库 http://www. imgd. org/) ( Lee et al., 
2009) , 23 个 目的 昆虫 已 有 代表 性 种 类 的 线粒体 基 
因 组 数据 , rR AYME. SESH. EWEA, RAH, 
WHAHA FAEH, SHAH, së H. J HH. Mol 
H. Tr5mH.uHIGSEHBIXGEB S, 至 少 有 
3 个 线粒体 基因 组 序列 , 其 他 21 个 目 仅 1 ~ 2 个 线 
粒 体 基因 组 序列 。 由 于 双 翅 目 具 有 多 种 遗传 模式 昆 
m. 以 及 在 媒介 昆虫 领域 的 医学 重要 性 ,已 测序 的 
线粒体 基因 组 数量 最 多 , 3675 个 (其 中 26 个 具有 
包括 控制 区 在 内 的 完全 序列 ) ， 占 总 数 的 29. 496 , 
但 从 未 有 双 翅 目 线粒体 基因 组 的 比较 基因 组 学 、 共 
同 结构 、 碱 基 组 成 和 保守 性 等 特征 的 研究 报道 。 

关于 线粒体 基因 组 测序 引物 的 研究 ，Simon 等 
(2006 ) 设 计 了 动物 线粒体 基因 组 测序 的 通用 引物 ， 
该 套 引物 是 基于 10 个 昆虫 目 18 种 昆虫 、2 #h p Jx 
动物 、2 种 脊椎 动物 和 3 种 无 肉 椎 动物 线粒体 基因 
组 序列 比 对 而 设计 的 。 这 套 引 物 已 被 广泛 使 用 , 但 
由 于 动物 线粒体 基因 组 结构 变异 大 , 该 套 引物 的 特 
异性 不 高 ,在 使 用 中 存在 诸多 不 足 , 不 是 所 有 引物 
对 对 整个 线粒体 基因 组 都 有 很 好 的 扩 增 效果 , 在 不 
同 目的 昆虫 中 , 个 别 区 域 (大 多 是 在 tRNA 的 位 置 ) 
无 法 扩 增 。 这 套 引 物 的 使 用 者 需 根据 测序 的 部 分 序 
列 重新 设计 引物 (Stevens et al., 2008; Feng et al., 
2010; Hu et al., 2010) , 

我 们 初步 研究 发 现 很 难 将 255 个 昆虫 线粒体 基 
因 组 的 序列 对 齐 , 难以 找 出 一 个 满意 的 共同 结构 ， 
此 很 难 设计 出 一 套 适用 于 所 有 昆虫 线粒体 基因 组 
测序 的 通用 引物 。 本 研究 在 分 析 了 75 ANA H EG 
虫 线粒体 基因 组 序列 基础 上 , 重点 比较 研究 了 其 中 
26 个 完整 的 基因 组 序列 ( 表 1) 的 共同 结构 、 碱 基 组 
成 和 保守 性 , 同时 设计 了 双 翅 目 昆虫 线 粒 体 基因 组 
测序 的 通用 引物 ， 为 后 续 双 翅 目 昆虫 线粒体 基因 组 
测序 和 分 析 提 供 参考 和 依据 。 


1 材料 和 方法 


1.1 线粒体 基因 组 序列 
根据 IMGD (http://www. imgd. org/ ) 公布 的 双 


翅 目 昆虫 线粒体 基因 组 信息 ， 从 NCBI 数据 库 
(http://www. ncbi. nlm. nih. gov/) 中 检索 , 下载 得 
到 75 条 线粒体 基因 组 序列 。 其 中 , 果 蝇 科 ( 全 为 果 
蝇 属 ) 的 43 个 线粒体 基因 组 序列 中 有 40 个 的 控制 
区 序列 未 知 , 其 他 科 的 9 个 线粒体 基因 组 序列 控制 
区 及 部 分 编码 区 未 知 , 完全 的 线粒体 基因 组 序列 有 
26 条 ( 表 1) 。 本 研究 对 不 完全 的 49 个 线粒体 基因 
组 序列 作 了 部 分 研究 , 对 26 个 完整 的 线粒体 基因 
组 序列 作 了 完全 的 研究 。 这 26 个 线粒体 基因 组 序 
列 对 应 的 物种 分 别 隶 属于 蚊 科 (Culicidae) (5 种 )、 
3E We $} ( Tephritidae ) (5 fp). W M P} 
( Calliphoridae) (3 ffi). ERP} (Cecidomyiidae) (2 
TR). Z WR ËR ( Muscidae) (2 PP). 8 ËL 
( Ceratopogonidae) (1 PF), mfi (Tabanidae) (1 
TR). žE wa ËR (Oestridae) (1 P). R W Na ËL 
( Syrphidae) (1 ff). pim EL (Nemestrinidae) (1 
TP) RIAL (Drosophilidae) (3 fB) 11 个 科 , 25 
个 种 ( 表 1) 。 
1.2 线粒体 基因 组 结构 分 析 

用 Clustal X ( Thompson et al., 1997) 对 已 经 下 
载 的 上 述 26 条 完全 的 线粒体 基因 组 序列 进行 序列 
EXT, 利用 相关 软件 并 同时 结合 Blast 比 对 识别 这 
些 基 因 组 序列 上 的 基因 。 和 蛋 白 编 码 基因 的 识别 使 用 
在 线 软件 ExPASy ( http://web. expasy. org/ 
translate/) ; 使 用 在 线 软 件 tRNAscan-SE Search 
Server v. 1. 21 (http://lowelab. ucsc. edu/tRNAscan- 
SE/) (Lowe and Eddy, 1997 ) 来 寻找 tRNA 基因 、 预 
测 其 具体 位 置 、 编 码 方 问 及 二 级 结构 ; 使 用 RNA 在 
线 数据 库 ( http://www. rna. ccbb. utexas. edu/) 
( Cannone et al., 2002) 和 Blast 比 对 结果 识别 rRNA 
AED], 并 预测 其 二 级 结构 ; 现 有 的 研究 表明 控制 区 
位 于 基因 12S rRNA 与 tRNA Z [BJ (Zhang et al., 
1995) , 本 研究 利用 重复 序列 在 线 查 找 软 件 Tandem 
Repeats Finder ( http://www. bioinfo. rpi. edu/ 
applications/ Mfold) 鉴定 控制 区 位 置 ( Clary and 
Wolstenholme, 1987; Zuker, 2003) 。 

然后 , 将 这 26 条 线粒体 基因 组 序列 中 识别 出 
的 每 个 基因 分 别 使 用 软件 Clustal X 对 齐 , 分 析 不 同 
物种 中 的 每 个 基因 的 对 齐 情况 及 长 度 差异 。 将 单个 
基因 的 代表 序列 与 这 26 条 线粒体 基因 组 序列 全 长 
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使 用 Clustal X 一 起 比 对 , 确定 每 条 序列 中 的 每 个 基 
因 的 位 置 , 从 而 找 出 这 26 条 线粒体 基因 组 序列 的 
共同 排列 规律 , 根据 共同 排列 特征 及 每 个 基因 的 长 
BE, 按照 长 度 比例 , 使 用 CorelDraw 画图 软件 绘制 
双 翅 目 昆 虫 线粒体 基因 组 结构 图 。 
1.3 线粒体 基因 组 碱 基 组 成 分 析 

使 用 软件 DNAStar (http://www. dnastar. com/ ) 
计算 这 26 条 全 线粒体 基因 组 序列 和 对 应 的 控制 区 
序列 的 A +T 百 分 含量 ，G +C EAE ER, AT iid 
和 GC fiie, TE Excel 中 绘制 AT Jig ERI GC i SER 
点 图 。 
1.4 线粒体 基因 组 保守 性 和 替换 率 分 析 

根据 这 26 个 全 线粒体 基因 组 序列 的 Clustal X 
对 齐 结果 , 定位 线粒体 基因 组 的 保守 区 域 和 变异 较 
大 区 域 , 并 在 Word 中 绘制 线 型 线粒体 基因 组 结构 
图 , 分 别 标记 这 些 区 域 。 

保守 度 在 本 文中 被 定义 为 特定 基因 的 核 音 酸 序 
列 经 Clustal X 对 齐 后 ,相似 性 在 90% A EKRE 
酸 位 点 占 该 基因 核 音 酸 位 点 总 数 的 百分比 。 根 据 各 
基因 序列 的 Clustal X 对 齐 结 果 , 计算 13 个 和 蛋白 编 
码 基 因 和 2 个 rRNA 基因 的 保守 度 。 

依据 软件 Clustal X 对 13 AE A ii 832 [S] LZ 
酸 序列 多 重 比 对 的 结果 , 使 用 软件 PAML ( Yang, 
2007 ) 分 别 计算 它们 的 Ka, Ks 及 Ka/Ks 值 ， 从 而 判 
IPLE SR EA IRI DE DS] BJ A ST RE e 
1.5 线粒体 基因 组 通用 引物 设计 

参考 2006 年 Simon 设计 的 引物 序列 及 动物 线 
粒 体 基因 组 的 保守 区 , 结合 本 文 对 这 26 个 双 翅 目 
昆虫 线粒体 基因 组 序列 的 比 对 结果 ,以 全 线粒体 基 
因 组 保守 序列 为 模板 , 使 用 软件 Primer Premier 5 
( http://www. 
index. html) 设计 通用 引物 。 设 置 参 数 如 下 : 引物 
长 度 21+3 bp, 扩 增 产物 长 度 在 500 ~1 200 bp 之 
间 , 相 邻 两 条 引物 对 应 的 基因 序列 重 登 大 小 在 350 ~ 
485 bp 之 间 , GC 百 分 售 量 在 40% ~ 60% 之 间 , 退火 
温度 在 45%C ~58 之 间 , 两 条 引物 的 退火 温度 相差 
小 于 5%C (LESE, 2011). MEERDER 
构 、 无 引物 二 聚 体 和 错 配 、 得 分 100 的 引物 序列 ; 
在 没 有 满分 的 引物 序列 , 选择 引物 目 身 和 引物 之 间 
含 发 夹 结构 、 引 物 二 聚 体 和 错 配 较 少 上 且 形 成 各 种 结 
构 所 需 的 目 由 能 绝对 值 小 于 4.5 keal/mol 的 引物 序 
列 (Sugimoto et al., 1996; Nakano et al.,1999; EK 
ft, 2003 ) 。 为 确保 引物 的 使 用 效率 , 将 从 Primer 
Premier 5 中 挑选 出 的 引物 序列 使 用 在 线 引 物 验 证 


premierbiosoft. | com/primerdesign/ 


软件 OligoCale ( http://www. basic. northwestern. 
edu/biotools/oligocalc. html) 验证 , 检验 两 条 引物 的 
退火 温度 是 否 接近 , ed Auk mm 
二 聚 体 等 。 最 终 将 使 用 两 个 软件 分 析 后 的 理想 序列 
作为 通用 引物 序列 ,并 以 黑 腹 条 蝇 Drosophila 
melanogaster 线粒体 基因 组 序列 为 参考 , 对 引物 进 
行 命 名 。 
1.6 ”通用 引物 在 葱 晶 线 粒 体 基因 组 扩 增 中 的 应 用 
最 后 , 将 1.5 节 中 设计 出 的 整套 引物 在 瓯 蝇 
Delia antiqua 中 使 用 , 扩 增 线粒体 基因 组 ,进行 验 
证 。 取 单 具 饲养 的 瓯 蝇 老 熟 幼虫 , 使 用 基因 组 DNA 
提取 试剂 盒 提取 葱 蝇 的 总 DNA 作为 模板 , 使 用 1.5 
方 中 设 计 的 整套 引物 扩 增 。 扩 增产 物 采 用 1% 38 
Bae Ie Fa pk S UI, 将 检测 到 的 目标 片段 切割 , 使 用 
胶 回 收 试 剂 盒 回收 纯化 后 测序 。 测 序 结果 使 用 
DNAMAN 软件 拼接 , 得 到 全 长 。 其 线粒体 基因 组 
结构 按照 1.2 节 方 法 分 析 。 


2 结果 与 分 析 


2.1 双 翅 目 昆 虫 线 粒 体 基因 组 结构 

完整 的 双 翅 目 昆 虫 线粒体 基因 组 是 共 价 闭合 环 
状 双 链 DNA 分 子 , 长 度 在 14 503 ~ 19 517 bp 之 间 。 
所 有 已 知 的 双 翅 目 昆 虫 线粒体 基因 组 序列 能 较 好 地 
对 齐 。 对 其 基因 排列 顺序 分 析 表 明 , KERA H 
线粒体 基因 组 的 基因 排列 顺序 与 黑 腹 果 蝇 相同 (如 
图 1); JEJE Bt Sx Aedes aegypti, H 2X Bt SX Aedes 
albopictus, 不 吉 按 蚊 Anopheles funestus, X] EC NV FÈ bc 
fü pu t fk y Anopheles 
quadrimaculatus 的 线粒体 基因 组 序列 仅 trnA 和 trnR 
两 个 相 邻 tRNA 基因 的 排列 顺序 互 换 ,形成 irnR- 
trnÀ 排列 方式 ; BE i Pl ( Cecidomyiidae ) 发 现 了 
tRNA 基因 排列 次 序 和 编码 方 同 改 变 ; 少量 物种 存 
在 个 别 基 因 人 缺失 或 编码 方 癌 改变 的 现象 。 可 见 双 翅 
目 昆 虫 线粒体 基因 组 整体 结构 相对 稳定 保守 。 

双 翅 目 昆 虫 线粒体 基因 组 包含 37 个 编码 基因 
(13 个 重 日 编码 基因 、22 个 tRNA 基因 、2 个 rRNA 
基因 ) 以 及 一 段 长 度 差异 较 大 的 非 编码 区 (也 称 欣 
制 区 或 A+T 富 含 区 )。 线 粒 体 基 因 组 的 大 小 主要 
受 控制 区 长 度 的 影响 , 个 别 种 类 含有 多 个 控制 区 。 
研究 表明 , 在 双 翅 目 昆虫 中 , 黑 腹 果 蝇 线 粒 体 的 控 
制 区 最 长 ( 达 4 601 bp), >C BE JY K Rhopalomyia 
pomum, 控制 区 最 短 ( 只 有 360 bp)。 

这 13 个 重 白 编码 基因 中 , ATP6 , 47P8 , COI 


Anopheles gambiae 
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Diptera mitochondrial genome 
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图 1 9008 H E RZ AE DAT 2B 254 Es 
Fig. 1 Structure of the mitochondrial genome of Diptera 

图 中 彩色 填充 框 表示 tRNA 编码 基因 , 未 填充 的 日 色 框 表示 和 蛋 日 编 
码 基因 、rRNA 及 控制 区 。 用 黑色 和 红色 字体 标记 的 蛋 日 编码 基因 , 
rRNA 及 控制 区 分 别 位 于 丁 链 和 N 链 上 。The color-filled blocks 
indicate tRNAs, while the un-filled white blocks denote the protein- 
coding genes, rRNA and control regions. The protein-coding genes, 


rRNA and control regions with black name are located on the major 


strand, whereas those with red names are on the minor strand. 


和 COM 的 核 背 酸 和 氨基 酸 长度 差 异 较 小 ,所 基 酸 
长 度 差异 小 于 5, 而 ND1 的 核 苷 酸 和 氮 基 酸 长 度 差 
异 最 大 ( 表 2)。 在 这 22 个 tRNA 基因 中 , 18 个 分 别 
对 应 相应 的 1 种 氨基 酸 , 但 丝氨酸 和 亮 氮 酸 的 
tRNA 有 2 种 : 分 别 为 trnLl (CUN) 和 trnl2 ( UUR) 
J trn$1 (UCN) fill trnS2 (AGN) 。tRNA 大 小 在 60 ~ 
75 bp, 大 多 可 以 形成 典型 的 三 叶 草 式 二 级 结构 , 包 
括 5 ~7 bp 的 氨基 酸 接受 辟 , 3 ~4 bp HIAR 
WERE, 3 ~5 bp H TOC 臂 和 4 ~5 bp 的 反 密 码 子 臂 ， 
以 及 一 个 大 小 可 变 的 额外 环 。 在 所 研究 的 线粒体 基 
因 组 序列 中 , 通常 trnS2 的 双 氢 尿 路 啶 辟 缺 失 , JÉ 
成 一 个 大 的 双 氢 尿 喀 啶 环 。12S rRNA 和 16S rRNA 
这 2 个 rRNA 基因 在 这 26 条 双 翅 目 昆 虫 线粒体 基 
因 组 序列 中 不 存在 基因 间隔 、 基 因 重 合 和 多 个 拷贝 
现象 。 它 们 的 二 级 结构 保守 , 都 由 多 个 须 环 结构 组 
成 , 16S rRNA 二 级 结构 中 包含 6 个 结构 域 (不 含 结 
V3 IL) , 128 rRNA 二 级 结构 含有 3 个 结构 域 。 


表 2， 双 翅 目 昆虫 线粒体 基因 组 蛋 蝗 编码 基因 和 rRNA 基因 基本 特征 


Table2 Basic features of protein-coding genes and rRNA genes of the mitochondrial genomes of Diptera 


基因 ECH BRI HE (bp) 
Gene Nucleotide size 
ATP6 672 -681 
ATP8 156 -165 
COI 1 531 -1 558 
COII 675 — 690 
COIII 783 -792 
CytB IIITel 157 
ND1 906 -1 032 
ND2 978 -1 032 
ND3 329 -357 
NDA 1 297 -1 345 
NDAL 270 -306 
NDS 1 665 -1 743 
ND6 468 — 525 
12S rRNA 522 — 804 
16S rRNA 957 — 1339 


2.2 ” 双 翅 目 昆 虫 线粒体 基因 组 的 碱 基 组 成 

双 翅 目 昆 虫 全 线粒体 基因 组 序列 AT 含量 为 
72.5995 ~ 85. 15% ， 平 均 77. 64%, GC 含量 为 
14.8596 ~27.41% , 平均 22.36% , AT 含量 明显 高 


于 CC 含量 。AT 含量 最 高 和 最 低 的 物种 分 别 是 


氨基 酸 数 保守 度 (% ) 

Number of amino acids Conservation 
223 -226 83.78 
51 -54 74.23 
510 -519 86.16 
224 -229 85.32 
260 — 263 83. 78 
372 - 378 83.29 
301 -343 85.37 
325 -343 74. 66 
109 -118 78.53 
432 -448 82.18 
89 —101 83.50 
554 —580 81.57 
155 - 174 72.57 
82. 89 
86.97 


Rhopalomyia pomum (85. 1596) 和 意大利 实 蝇 
Bactrocera oleae Italy (72.5996) , GC 含量 最 高 和 最 
低 的 物种 分 别 是 意大利 实 蝇 B. 
(27.4196 ) , Rhopalomyia pomum (14.8596) , Tz tl 
区 的 AT 含量 较 全 基因 组 更 高 ， 在 79. 95% ~ 


oleae Italy 
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95.54% 之 间 , 其 中 黑 腹 果 蝇 控制 区 的 AT 含量 高 达 
95. 54% , 

已 知 的 26 个 双 翅 目 昆 虫 全 线粒体 基因 组 序列 
AT WRH GC Ani DL ESI 2。CC WERIN HAE, 表明 
G 碱 基 的 含量 低 于 CRE. AT 偶 斜 大 多 为 正 值 ， 


GC 偏 斜 GC skew 


表明 大 部 分 物种 线粒体 基因 组 中 碱 基 A 的 含量 高 
于 碱 基 T Hym E, 在 个 别 物种 中 , 虽然 出 现 AT Í 
斜 为 负 值 的 情况 , 但 其 绝对 值 很 小 , 表明 AT 含量 
相差 并 不 明显 。 整 体 看 来 , 双 翅 目 线粒体 基因 组 碱 
ERMAT A 和 C 碱 基 。 





ATRI} AT skew 
图 2 ” 双 翅 目 线粒体 基因 组 AT WR GC 偏 斜 散 点 图 
Fig. 2 AT and GC skews calculated for the mitochondrial genomes of Diptera 
每 个 菱形 点 代表 一 个 线粒体 基因 组 序列 。A single diamond point indicates an individual mitochondrial genome. 


2.3 双 翅 目 昆 虫 线 粒 体 基因 组 保守 性 和 替换 率 
分 析 

序列 多 重 比 对 结果 发 现 , 双 翅 目 昆 虫 全 线粒体 
基因 组 保守 性 很 高 , 保守 度 达 81. 96% ; 13 个 和 蛋白 
编码 基因 和 2 个 rRNA 基因 中 , 保守 度 在 72.57% ~ 
86.97% 之 间 , 其 中 , 16S rRNA, COI, COII 和 VD1 
这 4 个 基因 的 保守 度 相 对 较 高 , 而 ND6 的 保守 度 最 
低 ( 表 2) 。 

非 同 义 替 换 率 (Ka) 和 同 义 替 换 率 (Ks) 的 比值 
可 以 判断 蛋白 质 编码 基因 是 否 存在 选择 压力 ,从 而 
反映 出 基因 的 保守 程度 。 双 翅 目 线粒体 基因 组 13 
个 蛋白 编码 基因 的 Ka, Ks K Ka/Ks 值 如 表 3 所 示 ， 
Ka/Ks 值 均 小 于 1， 表 现 出 纯化 ( 负 ) 选 择 ， 其 中 
COI, COIL, COII 和 CytB 4 个 基因 的 Ka/Ks 远 低 于 
其 他 基因 , 而 ND6, 47P8 和 ND2 的 Ka/Ks 相对 较 
高 (图 3), 可 见 双 翅 目 线粒体 各 和 蛋白 编码 基因 承受 
的 选择 压力 有 所 差异 , 保守 程度 也 存在 不 同 。 其 中 
COI, COI, COIII 和 CytB 基因 相对 保守 ;而 ND6, 
ATPS 和 ND2 基因 的 选择 压力 较 弱 , 基因 也 相对 不 
保守 。 

2.4 双 翅 目 昆 虫 线粒体 基因 组 通用 引物 设计 及 在 
葱 蝇 线粒体 基因 组 扩 增 中 的 应 用 

基于 这 26 个 完整 的 线粒体 基因 组 序列 的 保守 

序列 分 析 , 共 设 计 引 物 26 对 , 可 以 覆盖 整个 线粒体 


基因 组 (图 4, 表 4)。 引 物 设 计 使 用 了 简 并 碱 基 ， 
扩 增 产物 长 度 均 在 1 200 pp 以 内 ,以 保证 扩 增 和 测 
序 效果 。 引 物 的 名 称 组 成 为 “编号 - 方 回 -位置 ”， 如 
1-F323, 1 表示 引物 编号 ， 即 第 一 对 引物 ; 上 为 引物 
扩 增 方 回 , 正 癌 引 物 用 下 表示, 反问 引物 R 表示 ; 
后 面 的 数字 表示 引物 $" 端 核 苷 酸 所 在 位 置 (以 黑 腹 
果 晶 为 参考 ) o 

通过 序列 比 对 及 相关 文献 报道 ,tRNA 编码 基 
因 不 保守 , 存在 缺失 倒置 重 排 现象 。 因 此 , 该 套 引 
物 大 多 设计 在 蛋白 和 rRNA 编码 基因 上 ， 只 有 很 少 
引物 在 tRNA 编码 基因 处 ,以 提高 引物 的 保守 性 和 
扩 增 效率 。 

该 套 引 物 已 经 在 敬 蝇 线粒体 基因 组 扩 增 中 使 
用 , 扩 增 效果 很 好 , 可 以 得 到 完整 的 线粒体 基因 组 
序列 (结果 另外 发 表 ) 。 其 中 , 编号 为 2, 3, 5, 8, 
13, 14, 15, 16, 18, 20, 22 和 24 的 引物 扩 增 效果 
更 好 。 
3 讨论 

本 文 是 已 报道 的 双 翅 目 昆 虫 线 粒 体 基因 组 序 
列 , 特别 是 26 个 完整 的 线粒体 基因 组 序列 (隶属 11 
个 科 , 25 个 种 ) 的 基因 组 结构 、 碱 基 组 成 和 保守 区 
域 的 研究 总 结 , 并 基于 其 保守 区 设计 了 双 翅 目 昆虫 
线粒体 基因 组 扩 增 的 通用 引物 。 
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RI 双 翅 目 线粒体 基因 组 13 个 蛋白 编码 基因 的 Ka, Ks X Ka/Ks 
Table 3 The Ka, Ks and Ka/Ks of 13 protein-coding genes of the mitochondrial genomes of Diptera 


基因 Gene Ka Ks Ka/Ks 
47P6 0.089 0. 508 0.175 
47P8 0.227 0.491 0. 462 
COI 0.048 0.591 0.081 
COII 0.081 0.582 0. 140 
COIII 0.071 0.547 0.130 
CytB 0.087 0.618 0.141 
ND1 0.085 0.401 0.211 

0.6 

0.5 

0.4 

v. 
s 0.3 


基因 Gene Ka Ks Ka/Ks 
ND2 0.201 0.472 0. 427 
ND3 0.128 0.543 0.235 
ND4 0.125 0.402 0.310 
ND4L 0.128 0.379 0.337 
ND5 0. 126 0.418 0.301 
ND6 0.225 0. 444 0. 507 


0.2 
p | ] l | | 
l d 


ATP6 ATP8 COI CON COII CytB NDI ND2 ND3 ND4 ND4L ND5  ND6 


图 3 ” 双 翅 目 线粒体 基因 组 13 个 蛋白质 编码 基因 的 Ka/Ks 分 析 
Fig. 3 The Ka/Ks analysis of 13 protein-coding genes of the mitochondrial genomes of Diptera 
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图 4 双 翅 目 线粒体 基因 组 的 保守 区 及 通用 引物 位 置 
Fig. 4 Conservation regions and universal primer positions of the mitochondrial genomes of Diptera 
灰色 填充 区 为 线粒体 基因 组 上 的 保守 区 , 各 基因 和 AT 区 用 其 名 称 标注 ,箭头 指示 引物 位 置 和 方向 。 用 红色 字母 标注 的 基因 位 于 N 链 上 , 用 
黑色 字母 表示 基因 和 AT 区 位 于 J 链 上 。The grey-filled regions indicate the conservation regions, and the genes and AT region are marked in the 


corresponding regions. The genes with red names are located on the minor strand, and the genes and AT region with black names are located on the major 


strand. The arrows with the corresponding primer names indicate the locations of primers on mitochondrial genome and the direction of PCR amplification. 


本 研究 分 析 的 这 26 个 双 翅 目 昆 虫 线粒体 基因 
组 排列 紧密 ,大 多 数 物种 的 基因 组 排列 顺序 与 黑 腹 
果 蝇 相同 ， 部 分 种 类 仅 trnA 和 tirnR 两 个 相 邻 基因 
位 置 互 换 , 瘦 蚊 科 存 在 tRNA 基因 排列 次 序 和 编码 
方 回 改变 的 现象 , 整体 的 基因 排序 稳定 保守 。 蛋 日 


编码 基因 中 , ATP6, ATP8, COI 和 COII 等 基因 的 
核 车 酸 和 氨基 酸 长 度 差异 很 小 ; tRNA 基因 中 除 
trnS2 的 双 氨 尿 喀 啶 辟 缺 失 外 ,其 余 的 tRNA 基因 均 
可 形成 三 叶 草 式 的 二 级 结构 ,trnS2 BJA SUK REDE 
辟 缺 失 在 双 怒 目 中 是 普遍 存在 的 现象 , 二 级 结构 不 
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X4 双 翅 目 昆虫 线粒体 基因 组 通用 引物 
Table 4 Universal primers designed for mitochondrial genome amplification of Diptera 
引物 名 称 引物 序列 (5' -3') 扩 增 长 度 (bp) 引物 名 称 引物 序列 (5' -3") 扩 增 长 度 (bp) 

Primer name Primer sequence Amplification length || Primer name Primer sequence Amplification length 
1-F323 AGGAGCWTGAATAGGWTTAGA 14-F8158 TCATATCAYTRACACCACA 

1 112-1 181 996 —1 007 
1] -R1462 RTGGCTGAAGTTWAGGCRATA 14-R9156 GAGGKTATCARCCWGAACG 
2-F978 TTAGGWGGAYTRCCYCCATT 15-F8893 TTATAGAMCCAGAAACWGG 

835 — 900 982 — 996 
2-R1835 CCAGCTCCATTTTCW ACTAT 15-R9876 TTGRTTTACAAGACCAATG 
3-F1542 AGCWGGAATAGTWGGAACWTC 16-F9620 GCHCCTTCACAWACTCTAAAWGT 

945 —960 1 182 - 1 198 
3-R2489 GCTCATAAWATRGCTGGRGA 16-R10813 CRTAATAWATTCCTCGTCCTA 
4-F2212 CCWGGATTYGGWATAATYTCT 17-F10599  TGGCWTCATTAYTWGGATTAT 

763 -772 926 — 939 
4-R2978 CTATGTTCAGCTGGYGGACTA 17-R11536 X GTTCTTCWACTGCGTCGWGCT 
5-F2637 AGCAGGWTTTRTYCAYTGAT 18-F11268  TATYCCWGCTAAYCCWTTAG 

941 —959 980 — 997 
5-R3590 CTCCTAAAGCWGGKAYTGTT 18-R12253 — GGTTTRCGRGCTGTRGCTCA 
6-F3311 GCTYTYCCTICTYTACGWTT 19-F11982 — AAAGCAAAWCCYCCTCTTC 

1 151 - 1 184 561 —579 
6-R4461 TTCCTTGAGGAACTAAATGA 19-R12558 — ATATTCAAATTCGTAARGG 
7 -F4076 ATTTTCYGTATTYGACCCYTC 20-F12286 | AACCAGCWAYTATWACWGTAT 

831 -918 1 028 -1 070 
7-R4929 TCTCGWGAWACATCTCGTCAT 20-R13316 — AGTATTTTRACTGTGCAAAGG 
8-F4518 CGACCWGGAACWTTAGCWGT 21-F12834 TTACRCCGCTTTGAACTCAG 

1 006 -1 037 513 —529 
8-R5523 TAYCCTCCTCATCARTAAAT 21-R13336  WTAAAGTCTAACCTGCCCAC 
9-F5206 TICACAAACTACYCAAGGWTT 22-F13152  ATYTATAGGGTCTTCTCGTCT 

766 —821 1 061 -1 150 
9-R6001 GTTATAWTTAACTACAACCC 22-R14217 — AATATGYACACATCGCCCGTC 
10-F5715 WTCYCCWTTYGAATGYGGAT 23-F13933 . CTTTYACAATACTAWTWMAC 

801 —847 655 —670 
10-R6539 ATTTTGGRGGTCAAMATTTA 23-R14590 — WAAACTAGGATTAGATACC 
11-F6354 ATCTCCMTAACATCTTCARTG 24-F14197 — GACGGGCGATRTGTRCATA 

1 013 - 1 020 523 —559 
11-R7369 ATTTATAGCTGGATTAGGRGC 24-R14725 | CCAGCAGTCGCGGTTATAC 
12-F6999 TCGAAAWGAATAACWAACWGT 25-F14699 — GCGRCTGCTGGCACMAATT 

822 —848 1 174 -4 824 
12-R7789 AGATGGWTTAGGAYTTGTT 25-R39 TACCCTATCAAGGTAAYCC 
13-F7512 TAGCWGCWGGTAATCAAGA 26-F9 GCCTGATRAAAAGGRTTACCT 

964 —972 689 — 743 
13-R8476 GCTCCTCCWACWTTRAATT 26-R736 AATCCTCCAAWWGCTCCAAT 


完整 的 tRNA 基因 可 通过 转录 后 的 修饰 维持 它们 正 
党 的 功能 (Tomita et al., 2001) ; 2 个 rRNA 基因 的 
二 级 结构 均 由 多 个 蕉 环 结构 组 成 , 且 结 构 保 守 。 
双 翅 目 昆 虫 线粒体 基因 组 的 碱 基 组 成 呈现 严重 
偏向 性 ，AT 的 百 分 含 量 在 72.59% ~ 85. 15% 之 间 ， 
AT WEH GC WRH ZER BI VA ER E UGA H E R 
线粒体 基因 组 中 偏好 使 用 A 和 C 碱 基 。 而 复制 和 
转录 过 程 中 碱 基 的 不 对 称 突变 和 选择 压力 是 造成 碱 
基 偶 问 性 的 主要 原因 。DNA 复制 和 转录 过 程 中 , 其 
中 一 条 链 处 于 单 链 的 时 间 长 于 为 一 条 链 ， 而 单 链 状 
态 下 DNA 的 A 和 C 脱 氨基 化 速率 较 双 链 DNA 状 
态 快 (Lindahl, 1982) , 因此 , 有 更 多 的 A 和 C 脱毛 


Ah lE FAO. Mun Se DR di m ri] T£ ( Lindahl, 
1993) , 。 双 翅 目 昆虫 线粒体 基因 组 碱 基 组 成 的 偏 回 
性 对 研究 线粒体 基因 组 的 复制 、 转 录 方 式 及 基因 重 
排 发 生 事件 有 重要 的 意义 。 

E FLA A BJ Ka/Ks 值 可 以 反映 基因 承受 
的 选择 压力 , 也 可 以 一 定 程度 地 反映 出 基因 的 保守 
FE. Ka/Ks« 1， 认 为 有 纯化 选择 作用 ，Ka/Ks 越 
小 , 表明 该 基因 承受 的 选择 压力 越 大 , 该 基因 则 越 
保守 ; Ka/Ks RK, 基因 的 进化 速率 越 快 , 基因 越 
不 保守 。 双 翅 目 线粒体 基因 组 中 13 个 蛋白 编码 基 
因 的 Ka/Ks 值 均 小 于 1, 可 见 ,， 双 翅 目 昆虫 线粒体 
基因 组 的 和 蛋 日 编码 基因 都 很 保守 , 其 中 COI, CONI, 
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COII 和 CytB 这 些 基 因 的 Ka/Ks 信 较 其 他 基因 明显 
偏 小 , 表明 它们 承受 着 较 强 的 选择 压力 , 基因 更 加 
保守 ; 相反 , ND6, ATP8 和 ND2 基因 的 Ka/Ks 值 相 
对 较 大 , 这 些 基因 承受 的 选择 压力 较 弱 ,基因 相对 
不 保守 。 此 外 , 多 重 比 对 的 结果 显示 ,， 双 翅 目 昆虫 
线粒体 基因 组 中 的 13 个 蛋白 编码 基因 的 保守 程度 
都 很 高 ( 均 在 70% VÀ E) , 但 是 也 存在 一 定 的 差异 ， 
COI, COI 和 ND1 基因 的 保守 性 要 明显 高 于 其 他 基 
因 。 综合 上 述 研 究 结 果 ， 双 起 目 昆 虫 线 粒 体 基 因 组 
中 的 COI 和 COI122 个 基因 最 为 保守 , 目前 已 被 广泛 
应 用 于 分 子 标记 和 系统 发 生 的 研究 (Park et al., 
2010; Tobe et al., 2010; Mazzon et al., 2010) 。 

双 翅 目 昆 虫 线粒体 基因 组 保守 的 结构 在 系统 发 
生 和 分 子 进 化 等 研究 中 有 重要 的 意义 。 目 前 双 翅 目 
昆虫 线粒体 基因 组 扩 增 的 通用 引物 未 见报 道 , 使 用 
较为 广泛 的 Simon 设计 的 引物 ,是 基于 昆虫 、 节 肌 
动物 、 准 椎 动物 和 无 消 椎 动物 线粒体 基因 组 比 对 的 
基础 上 设计 的 ,虽然 包含 了 大 部 分 昆虫 目 , 但 是 每 
个 目 仅 选 取 了 2 个 物种 做 比 对 , 一 方面 代表 性 不 
强 , 仅 2 个 种 的 线粒体 数据 不 能 代表 整个 昆虫 目的 
基因 结构 特点 ; 另 一 方面 准确 性 不 够 , 有限 的 序列 
不 能 准确 地 反映 所 有 昆虫 线粒体 基因 组 的 保守 区 
域 。 初 步 研究 发 现 , 不 同 昆虫 目的 线粒体 基因 组 的 
结构 、 基 因 排 列 和 保守 程度 不 同 , 且 存 在 较 大 差 
异 , 因此 很 难 找到 所 有 昆虫 线粒体 基因 组 的 保守 
区 ， 也 很 难 针对 所 有 昆虫 设计 通用 引物 。 根 据 昆 虫 
线粒体 基因 组 的 结构 和 组 成 特点 , 针对 单独 的 昆 忠 
目 设 计 通 用 引物 更 具有 可 行 性 。 本 研究 发 现 , 双 区 
目 昆 虫 线粒体 基因 组 的 结构 和 组 成 相对 保守 , 基因 
组 中 存在 多 个 大 片段 保守 区 ,可 以 设计 多 对 保守 引 
物 , 覆盖 整个 线粒体 基因 组 。 

本 文 作者 设计 的 这 套 双 翅 目 昆虫 线粒体 基因 组 
扩 增 通用 引物 已 在 答 蝇 线粒体 基因 组 中 扩 增 使 用 ， 
扩 增 效果 恨 好 , 并 且 发 现 位 于 重 日 和 TRNA 编码 基 
因 上 的 引物 扩 增 效率 更 高 ,可见 , 在 越 保守 的 基因 
序列 上 设计 的 引物 , 其 保守 性 越 好 ， 扩 增 效 率 越 
高 。 这 套 通 用 引物 目前 仅 在 和 翘 蝇 中 进行 了 验证 , 在 
更 多 双 翅 目 昆 虫 中 的 扩 增 效果 有 竺 进一步 的 验证 ， 
仅 希 望 该 套 引 物 可 以 为 后 续 双 翅 目 昆虫 线粒体 基因 
组 测序 和 分 析 提 供 参 考 和 依据 。 
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